Adrian Kamiński

Praca domowa 1

Wczytujemy dane

Sprawdzamy czy w zbiorze znajdują się braki i sprawdamy typy każdej z kolumn

Widzimy, że dane są komplentne. Mamy 2 kolumny ze stringami, a pozostałe są liczbowe. Możemy zamienić kolumny month i day na liczby (chociaż przy naszym zadaniu nie jest to konieczne).

Sprawdzamy wiele wartości statystycznych dla wszystkich kolumn na raz

Historgramy te mogą pomóc w zauważeniu gdzie możemy szukać pewnych zależności. Widać, że zależności mogą występować pomiedzy zmiennymi DMC, DC, temp. RH, wind, ISI

Widzimy też że zmienna rain charakteryzuję się małą wariancją (możliwe że warto zamienić tą kolumnę tak aby przyjmowała tylko wartosci 0 i 1)

Sprawdźmy czy mieliśmy rację co do zależności

Widzimy kilka zależności np. między: RH - temp, FFMC - ISI oraz DC - DMC

Zajmijmy się zmienną area

Widzimy, że wiele obserwacji zawiera dane gdzie pożaru nie było czyli gdzie $area = 0$. Analizując jednak miejsca gdzie pożary wybuchły widzimy i stosując skale logarytmiczną dostajemy rozkład przypominający rozkład normalny o dużej wariancji.

Sprawdźmy teraz miejsca w których pożary występują i jakiego rozmiaru one są

Najpierw dodamy zmienną informująco czy pożar wystąpił czy nie

Widzmy w szególności że są miejsca w których pożary nigdy nie występują, i jest też kilka miejsc gdzie pożary występują często (np. punkty $(6,5), (7,4), (8,6)$)

Sprawdźmy czy miesiąc lub dzień ma jakikolwiek wpływ na pożary

Przy podziale na dni widzimy, że od piątku do poniedziału występuje nieznacznie więcej pożarów. Jeśli chodzi o miesiące to ilość pożarów w sierpniu i wrześniu jest zdecydowanie największa choć nie wpływa to znacznie na obszar

Sprawdźmy teraz zależność area od pozostałych zmiennych stosując pairplot'a

Użycie narzędzia do automatycznej eksploracji danych - pandas-profiling

Zalety:

Wady: